درباره فايل robots.txt و نقش آن در دسترسي بات موتورهاي جستجو به مطالب سايت
بات هاي جستجوگر وب مثل بات گوگل، محتواي سايت ها را بررسي مي كنند و سايت را بر اساس محتوا و
كلمات كليدي استفاده شده در آن طبقه بندي مي كنند. فايل robots.txt براي مشخص كردن ميزان دسترسي بات ها به مطالب سايت در
طراحي سايت مورد استفاده قرار مي گيرد. robots.txt در بحث
بهينه سازي سئو اهيت خود را نشان مي دهد.
مقدمه:
براي آشنايي با فايل robots.txt در ابتدا توضيح مختصري درباره بات هاي اينترنتي يا همان ربات هاي وب ارائه مي شود:
بات اينترنتي ( وب ربات ) يا به عبارت ساده تر بات، نرم افزاري كاربردي است كه به منظور انجام كارهاي خودكار در اينترنت طراحي شده است. ربات هاي اينترنتي بيشتر جهت انجام كارهاي ساده، تكراري و با حجم زياد، برنامه نويسي مي شوند. منظور از حجم زياد كارها، كارهايي هستند كه ميزان آنها به قدري زيادي است كه انجام دادن آنها از عهده انسان خارج است. بيشترين استفاده از ربات هاي اينترنتي در موتورهاي جستجوگر اينترنت است. بات هاي موتورهاي جستجوگر در صفحات مختلف وبسايت ها مي چرخند و مطالب آنها را براي فهرست بندي در منابع موتورهاي جستجو ليست مي كنند.
بات ها به طور كلي 60 درصد ترافيك اينترنت را در اختيار دارند، به اين معني كه بيشتر مشاهدات وبسايت ها به جاي انسان ها توسط آن ها صورت مي گيرد . بات هاي خزنده يا همان بات هاي موتورهاي جستجوگر، جز بات هاي مفيد حساب مي شوند. درصد بالايي از ترافيك اينترنت هم در اختيار بات هاي مخرب است. اين گونه از ربات معمولا توسط هكرها و جهت سودجويي يا سرقت اطلاعات شخصي كاربران اينترنت طراحي مي شوند.
فايل robots.txt چيست؟
وب مسترها با تنظيم كردن فايلي به اسم robots.txt مي توانند دسترسي بات ها ( به خصوص بات هاي موتورهاي جستجوگر ) را به محتواي وبسايت ها كنترل كنند. براي درك راحت تر عملكرد فايل robots.txt، اين مثال آورده شده است:
اگر نشاني وبسايت ( URL ) به صورت www.example.com/welcome.html باشد، رباتي كه سايت را مشاهده مي كند، در ابتدا به دنبال اين آدرس مي گردد: www.example.com/robots.txt
آدرس دوم نشان دهنده موجود بودن فايل متني robots مي باشد. وب مستر ها با استفاده از چند دستور ساده مي توانند انواع بات هايي كه مجوز ورود به وبسايت را دارند، مشخص كنند. همچنين تعداد صفحات يك وبسايت كه بات ها مجاز به مرور آن ها هستند در همين فايل تعريف مي شود.
ويژگي هاي فايل :robots.txt
هنگامي كه قصد داريد در
طراحي سايت خود از robots.txt استفاده نماييد، به اين دو نكته توجه داشته باشيد:
1- بدافزارها كه قصد آسيب رساندن به وبسايت ها را دارند، مي توانند فايل robots.txt و محتويات آن را ناديده بگيرند.
2- فايل robots.txt براي عموم كاربران نمايش داده مي شود. هر كاربري مي تواند متوجه شود كه كدام صفحات سايت، نبايد توسط ربات خوانده شوند.
موجود بودن فايل robots.txt در
طراحي سايت در مبحث
بهينه سازي سئو تاثير مثبتي دارد، اما با توجه به دو مورد بالا بهتر است كه از اين فايل براي مخفي كردن صفحات استفاده نشود. در حقيقت فايل بالا برلي محدود كردن دسترسي به وبسايت نيست ( اگر به اين منظور مورد استفاده واقع شود، اشتباه است. ) در صورتي كه در طراحي فايل robots.txt، صفحاتي از وبسايت براي ورود بات ها محدود شوند، مي توان به اين محدوديت به شكل يك علامت " ورود ممنوع! " كه روي يك درب نصب شده نگاه كرد. وجود اين علامت روي درب به معناي قفل بودن درب نيست. يك نكته مهم در مورد اين فايل اين است كه در زمان ذخيره كردن فايل، تمامي حروف آن بايد با حرف هاي كوچك نوشته شود.
بلاك كردن بد افزارها با فايل robots.txt به صورت تئوري امكان پذير است اما در عمل خير. براي بلاك كردن بدافزارها ( Malwares ) يا همان بات هاي مخرب، بهترين روش استفاده از گزينه هاي پيشرفته فايروال شبكه ( Network Firewall ) است. اين گزينه ها امكان بلاك كردن خودكار نشاني هاي پروتكل اينترنت (Internet Protocol Address ) را فراهم مي كنند. با تنظيمات صحيح فايروال شبكه مي توان نشاني هاي اينترنتي مختلف ( IP ) با تعداد زياد را، كه قصد دسترسي به منابع يك وبسايت را دارند متوقف كرد. امروزه
سيستم هاي مديريت محتوا ( CMS ) قابليت تنظيم و كنترل دسترسي به تك تك صفحات وبسايت را فراهم نموده اند.
جمع بندي:
بات هاي جستجوگر وب مثل بات گوگل، محتواي سايت ها را بررسي مي كنند و سايت را بر اساس محتوا و
كلمات كليدي استفاده شده در آن طبقه بندي مي كنند. فايل robots.txt براي مشخص كردن ميزان دسترسي بات ها به محتوا در
طراحي سايت مورد استفاده قرار مي گيرد. robots.txt در بحث
بهينه سازي سئو اهيت خود را نشان مي دهد. همان طور كه گفته شد، اصولا استفاده از اين فايل براي مسدود كردن بررسي صفحات وبسايت، بي مورد است. توليد محتواي مناسب جز يكي از مهم ترين بخش هاي فرايند
بهينه سازي سئو در جهت
افزايش رنك مي باشد. بايد دقت داشت كه در طراحي فايل robots.txt صفحات مطلوب را كه لازم است توسط بات موتورهاي جستجو خوانده شوند، به اشتباه مسدود نكرد.